新型视图合成是一个长期存在的问题。在这项工作中,我们考虑了一个问题的变体,在这种变体中,只有几个上下文视图稀疏地涵盖了场景或对象。目的是预测现场的新观点,这需要学习先验。当前的艺术状态基于神经辐射场(NERF),在获得令人印象深刻的结果的同时,这些方法遭受了较长的训练时间,因为它们需要通过每个图像来评估数百万个3D点样品。我们提出了一种仅限2D方法,该方法将多个上下文视图映射,并在神经网络的单个通过中映射到新图像。我们的模型使用由密码簿和变压器模型组成的两阶段体系结构。该密码手册用于将单个图像嵌入较小的潜在空间中,而变压器在此更紧凑的空间中求解了视图综合任务。为了有效地训练我们的模型,我们引入了一种新颖的分支注意机制,该机制使我们不仅可以将相同的模型用于神经渲染,还可以用于摄像头姿势估计。现实世界场景的实验结果表明,与基于NERF的方法相比,我们的方法具有竞争力,而在3D中没有明确推理,并且训练速度更快。
translated by 谷歌翻译